冠状动脉血管造影(CCTA)易受各种扭曲(例如伪影和噪声)的敏感,这严重损害了心血管疾病的确切诊断。适当的CCTA血管级图像质量评估(CCTA VIQA)算法可用于降低错误诊断的风险。 CCTA VIQA的首要挑战是,冠状动脉的本地部分确定最终质量是很难找到的。为了应对挑战,我们将CCTA VIQA作为多种现实学习(MIL)问题,并利用基于变压器的MIL主链(称为T-MIL),以将沿冠状动脉中心线的多个实例汇总为最终质量。但是,并非所有实例都提供最终质量的信息。有一些质量 - 欧元/负面实例介入确切的质量评估(例如,在实例中仅涵盖背景或冠状动脉的实例是无法识别的)。因此,我们提出了一个基于渐进的增强学习的实例丢弃模块(称为PRID),以逐步删除CCTA VIQA的质量 - 欧尔特尔/否定实例。基于上述两个模块,我们根据端到端优化提出了一个加强的变压器网络(RTN),用于自动CCTA VIQA。广泛的实验结果表明,我们提出的方法实现了现实世界中CCTA数据集的最新性能,超过了以前的MIL方法。
translated by 谷歌翻译
Arbitrary-oriented object detection is a fundamental task in visual scenes involving aerial images and scene text. In this report, we present PP-YOLOE-R, an efficient anchor-free rotated object detector based on PP-YOLOE. We introduce a bag of useful tricks in PP-YOLOE-R to improve detection precision with marginal extra parameters and computational cost. As a result, PP-YOLOE-R-l and PP-YOLOE-R-x achieve 78.14 and 78.28 mAP respectively on DOTA 1.0 dataset with single-scale training and testing, which outperform almost all other rotated object detectors. With multi-scale training and testing, PP-YOLOE-R-l and PP-YOLOE-R-x further improve the detection precision to 80.02 and 80.73 mAP. In this case, PP-YOLOE-R-x surpasses all anchor-free methods and demonstrates competitive performance to state-of-the-art anchor-based two-stage models. Further, PP-YOLOE-R is deployment friendly and PP-YOLOE-R-s/m/l/x can reach 69.8/55.1/48.3/37.1 FPS respectively on RTX 2080 Ti with TensorRT and FP16-precision. Source code and pre-trained models are available at https://github.com/PaddlePaddle/PaddleDetection, which is powered by https://github.com/PaddlePaddle/Paddle.
translated by 谷歌翻译
文本分类任务的关键是语言表示和重要信息提取,并且有许多相关研究。近年来,文本分类中的图形神经网络(GNN)的研究逐渐出现并显示出其优势,但现有模型主要集中于直接将单词作为图形节点直接输入GNN模型,而忽略了不同级别的语义结构信息。样品。为了解决该问题,我们提出了一个新的层次图神经网络(HIEGNN),该图分别从Word级,句子级别和文档级别提取相应的信息。与几种基线方法相比,几个基准数据集的实验结果取得更好或相似的结果,这表明我们的模型能够从样品中获得更多有用的信息。
translated by 谷歌翻译
受到远见与语言之间的牢固联系的启发,我们的论文旨在探索文本中的3D人类全身动作的产生,以及其互惠任务,分别用于文本2Motion和Motion2Text, 。为了应对现有的挑战,尤其是为了使同一文本产生多个不同的动作,并避免了不良生产的琐碎的静止姿势序列,我们提出了使用运动令牌(一种离散和紧凑的运动表示)的使用。当将动作和文本信号视为运动和文本令牌时,这提供了一个级别的游戏地面。此外,我们的Motion2Text模块被整合到我们的文本2Motion训练管道的反对准过程中,在该管道中,合成文本与输入文本的显着偏差将受到较大的培训损失的惩罚;从经验上讲,这证明可以有效地提高性能。最后,通过将神经模型调整为机器翻译(NMT)的两种动作方式和文本之间的映射,可以促进。离散运动令牌上分布的这种自回归建模进一步使来自输入文本的姿势序列(可变长度)的非确定性产生。我们的方法是灵活的,可以用于Text2Motion和Motion2Text任务。在两个基准数据集上进行的经验评估证明了我们在这两个任务上的卓越性能在各种最新方法上。项目页面:https://ericguo5513.github.io/tm2t/
translated by 谷歌翻译
负载预测在电力系统的分析和网格计划中至关重要。因此,我们首先提出一种基于联邦深度学习和非侵入性负载监测(NILM)的家庭负载预测方法。就我们所知,这是基于尼尔姆的家庭负载预测中有关联合学习(FL)的首次研究。在这种方法中,通过非侵入性负载监控将集成功率分解为单个设备功率,并且使用联合深度学习模型分别预测单个设备的功率。最后,将单个设备的预测功率值聚合以形成总功率预测。具体而言,通过单独预测电气设备以获得预测的功率,它可以避免由于单个设备的功率信号的强烈依赖性而造成的误差。在联邦深度学习预测模型中,具有权力数据的家主共享本地模型的参数,而不是本地电源数据,从而保证了家庭用户数据的隐私。案例结果表明,所提出的方法比直接预测整个汇总信号的传统方法提供了更好的预测效果。此外,设计和实施了各种联合学习环境中的实验,以验证该方法的有效性。
translated by 谷歌翻译
In this report, we present PP-YOLOE, an industrial state-of-the-art object detector with high performance and friendly deployment. We optimize on the basis of the previous PP-YOLOv2, using anchor-free paradigm, more powerful backbone and neck equipped with CSPRepResStage, ET-head and dynamic label assignment algorithm TAL. We provide s/m/l/x models for different practice scenarios. As a result, PP-YOLOE-l achieves 51.4 mAP on COCO test-dev and 78.1 FPS on Tesla V100, yielding a remarkable improvement of (+1.9 AP, +13.35% speed up) and (+1.3 AP, +24.96% speed up), compared to the previous state-of-the-art industrial models PP-YOLOv2 and YOLOX respectively. Further, PP-YOLOE inference speed achieves 149.2 FPS with TensorRT and FP16-precision. We also conduct extensive experiments to verify the effectiveness of our designs. Source code and pre-trained models are available at https://github.com/PaddlePaddle/PaddleDetection.
translated by 谷歌翻译
在本文中,我们提出了一种用于HSI去噪的强大主成分分析的新型非耦合方法,其侧重于分别同时为低级和稀疏组分的等级和列方向稀疏性产生更准确的近似。特别是,新方法采用日志确定级别近似和新颖的$ \ ell_ {2,\ log} $常规,以便分别限制组件矩阵的本地低级或列明智地稀疏属性。对于$ \ ell_ {2,\ log} $ - 正常化的收缩问题,我们开发了一个高效的封闭式解决方案,该解决方案名为$ \ ell_ {2,\ log} $ - 收缩运算符。新的正则化和相应的操作员通常可以用于需要列明显稀疏性的其他问题。此外,我们在基于日志的非凸rpca模型中强加了空间光谱总变化正则化,这增强了从恢复的HSI中的空间和光谱视图中的全局转换平滑度和光谱一致性。关于模拟和实际HSIS的广泛实验证明了所提出的方法在去噪HSIS中的有效性。
translated by 谷歌翻译
近年来,图像分类器的BlackBox传输攻击已被广泛研究。相比之下,对对象探测器的转移攻击取得了很小的进展。对象探测器采用图像的整体视图,并检测一个对象(或缺乏)通常取决于场景中的其他对象。这使得这种探测器本质上的上下文感知和对抗的攻击比目标图像分类器更具挑战性。在本文中,我们提出了一种新的方法来为对象检测器生成上下文感知攻击。我们表明,通过使用对象及其相关位置的共同发生和尺寸作为上下文信息,我们可以成功地生成目标的错误分类攻击,该攻击比最先进的Blackbox对象探测器上实现更高的转移成功率。我们在帕斯卡VOC和MS Coco Datasets的各种对象探测器上测试我们的方法,与其他最先进的方法相比,性能提高了高达20美元的百分点。
translated by 谷歌翻译
加强福祉,医疗保健和监测的技术正在上升。然而,尽管患者兴趣,但这种技术遭受了低采用。这一有限收养的一个假设是丧失医生遭遇的人类互动的丧失。在本文中,我们寻求通过采用人体医生互动的一个方面的会话代理来解决这一限制:人类化身,以促进医疗接受的问题。这与医生可以指向人体或患者可能指向自己的身体以表达他们的条件的人,这是类似的。此外,我们的代理有多种交互模式,可能会给患者提供更多选项,以便使用代理商,而不仅仅是对于医疗问题应答,而且还可以从事关于一般话题和当前事件的对话。化身和多种交互模式都可以有助于提高遵守。我们展示了我们代理人的设计概述,玛丽机器人福利。我们还报告了我们早期原型的实施细节,并提出了初步结果。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译